오버샘플링
오버샘플링
개요
오버샘플(Over-sampling은 기계 학습 데이터 과학 분야에서불균형 데이터(imbalanced data)** 문제를 해결하기 위해 사용되는 데이터 전 기법 중 하나. 불균형란 특정 클래스의 샘플 수가 다른에 비해 현히 적은 경우를 말하며, 이는 분류 모델의 성능에정적인 영향 미칠 수 있습니다. 예를, 질병 진 데이터에서 건강한 환자는 많지만 질병 걸린 환자는 극소수일 경우, 모델이 질병이 없는 경우만 잘 예측하는 편향된 결과를 낼 수 있습니다.
오버샘플링은 소수 클래스(minority class)의 샘플 수를 늘려 데이터의 균형을 맞추는 방식으로, 모델이 소수 클래스를 더 잘 학습할 수 있도록 돕습니다. 이 기법은 주로 분류 문제에서 사용되며, 정확도보다 재현율(Recall) 또는 정밀도(Precision) 이 중요한 응용 분야(예: 이상 탐지, 사기 탐지, 의료 진단)에서 특히 유용합니다.
오버샘플링의 목적
불균형 데이터셋에서 머신러닝 모델은 다수 클래스(majority class)에 치우쳐 학습하게 되며, 이는 다음과 같은 문제를 유발할 수 있습니다:
- 소수 클래스의 예측 성능이 매우 낮아짐
- 높은 정확도를 보이지만 실제로는 유의미한 예측을 하지 못함 (정확도의 함정)
- 모델이 소수 클래스의 패턴을 충분히 학습하지 못함
오버샘플링은 이러한 문제를 완화하기 위해 소수 클래스의 샘플 수를 늘림으로써 클래스 간 균형을 맞추는 것을 목적으로 합니다. 이를 통해 모델이 모든 클래스를 공평하게 학습하고, 특히 소수 클래스에 대한 예측 성능을 향상시킬 수 있습니다.
주요 오버샘플링 기법
1. 단순 오버샘플링 (Random Over-sampling)
가장 기본적인 방법으로, 소수 클래스의 기존 샘플을 중복해서 복제하여 데이터 수를 늘리는 방식입니다. 예를 들어, 소수 클래스에 100개의 샘플이 있다면, 이를 500개가 될 때까지 무작위로 복사합니다.
장점: - 구현이 간단하고 계산 비용이 낮음 - 기존 데이터를 그대로 사용하므로 왜곡이 없음
단점: - 동일한 데이터를 반복하여 학습 데이터의 다양성이 증가하지 않음 - 과적합(Overfitting)의 위험이 있음
2. SMOTE (Synthetic Minority Over-sampling Technique)
SMOTE는 단순 복제 대신, 소수 클래스의 기존 샘플들 사이에서 인공적인 가상 샘플(synthetic sample) 을 생성하는 방법입니다. 이는 각 소수 클래스 샘플의 k-최근접 이웃(k-NN)을 찾아, 두 샘플 사이의 선분 상에 새로운 데이터 포인트를 생성합니다.
수식적 설명: 새로운 샘플 ( x_{\text{new}} )는 다음과 같이 생성됩니다: [ x_{\text{new}} = x_i + \delta \times (x_{zi} - x_i) ] 여기서 ( x_i )는 기존 샘플, ( x_{zi} )는 그 이웃 샘플, ( \delta )는 [0, 1] 범위의 랜덤 값입니다.
장점: - 단순 복제보다 데이터 다양성 증가 - 과적합을 어느 정도 완화
단점: - 노이즈가 있는 데이터에 민감함 (노이즈도 확산될 수 있음) - 고차원 데이터에서 성능 저하 가능
3. ADASYN (Adaptive Synthetic Sampling)
SMOTE의 확장 기법으로, 소수 클래스 중에서도 경계 근처에 위치한 샘플에 더 많은 가상 샘플을 생성합니다. 즉, 분류가 어려운 영역에 집중적으로 샘플을 추가하여 모델의 학습을 도와줍니다.
특징: - SMOTE보다 더 적응적인 샘플 생성 - 경계 영역에서의 분류 성능 향상
오버샘플링의 주의점
- 과적합 위험: 특히 단순 오버샘플링은 동일한 샘플을 반복 사용하므로 테스트 데이터에 대한 일반화 성능이 떨어질 수 있음.
- 노이즈 증폭: 원본 데이터에 노이즈가 포함되어 있다면, SMOTE 등의 기법이 이를 확산시킬 수 있음.
- 전처리 시점: 오버샘플링은 학습 데이터에만 적용되어야 하며, 검증/테스트 데이터에는 적용하지 않아야 함. 그렇지 않으면 성능 평가가 왜곡됨.
- 기타 기법과의 조합: 오버샘플링과 함께 언더샘플링(Under-sampling)을 병행하는 하이브리드 기법도 자주 사용됩니다.
관련 기법 및 비교
| 기법 | 설명 | 장점 | 단점 |
|---|---|---|---|
| 오버샘플링 | 소수 클래스를 늘림 | 데이터 손실 없음 | 과적합 위험 |
| 언더샘플링 | 다수 클래스를 줄임 | 계산 비용 감소 | 정보 손실 가능성 |
| 하이브리드 | 오버 + 언더 조합 | 균형 잡힌 처리 | 복잡성 증가 |
참고 자료
- Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
- He, H., Bai, Y., Garcia, E. A., & Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In 2008 IEEE International Joint Conference on Neural Networks (pp. 1322-1328). IEEE.
관련 문서
- 언더샘플링
- 불균형 데이터 처리
- SMOTE-ENN (SMOTE와 Edited Nearest Neighbors 결합 기법)
- 데이터 전처리 전략
오버샘플링은 데이터 과학 프로젝트에서 모델 성능을 향상시키는 핵심 전처리 기법 중 하나로, 적절한 적용을 통해 신뢰할 수 있는 예측 모델을 구축할 수 있습니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.